Peter Kolb Homepage: Download

Software
- UIMA-Wrapper für den deutschen Chunker von Helmut Schmid und Sabine Schulte im Walde.
- DISCO: semantische Worträume in 8 Sprachen und Java-API zur Bestimmung der semantischen Ähnlichkeit zwischen Wörtern
- Graphen-Visualisierungsprogramm GRAVIS.
- Perl-Skripte zur Bestimmung der Termrelevanz nach dem tf-idf-Maß:
  - df.pl: Gibt eine Liste mit den Dokumenthäufigkeiten aller Terme in den Dateien im Eingabeverzeichnis aus.
  - tfidf.pl: Berechnet die Relevanz der Terme in einer Eingabedatei (anhand der vom obigen Skript df.pl ausgegebenen Dokumentfrequenzliste) und gibt eine nach Relevanz sortierte Termliste aus.
  Mehr Informationen über Termrelevanz stehen auf dieser Seminarfolie.

Wortlisten (zur freien Verwendung, Public Domain)

20561 Vornamen (männliche und weibliche), automatisch aus dem Münchner Telefonbuch extrahiert. Von Aarne bis Zygmunt.
Ortsnamen:
- 2356 österreichische Ortsnamen,
- 5337 tschechische Ortsnamen,
- 11740 deutsche Ortsnamen,
- 228 estnische Ortsnamen,
- 8093 spanische Ortsnamen,
- 34123 französische Ortsnamen,
- 3145 ungarische Ortsnamen,
- 3457 irische Ortsnamen,
- 2688 polnische Ortsnamen,
- 293 schwedische Ortsnamen,
- 193 slowenische Ortsnamen,
- 10313 britische Ortsnamen.
Straßennamen
- 7929 Berliner Straßennamen (Stand Juni 1995, ohne Anspruch auf Vollständigkeit). Umfasst u.a. 4354 Straßen, 1691 Wege, 213 Plätze, 210 Alleen, 197 Steige, 114 Pfade, 97 Zeilen, 93 Dämme, 90 Ringe, 55 Ufer, 35 Chausseen, 28 Promenaden, 20 Gassen, 5 Bögen und 5 Korsos.
- 6920 Münchner Straßennamen (Stand Juni 1995, ohne Anspruch auf Vollständigkeit). Enthalten sind 4967 Straßen, 1071 Wege, 289 Plätze, 62 Ringe, 57 Alleen, 31 Gassen, 25 Bögen, 11 Steige, 4 Promenaden, 2 Dämme, 2 Rondells, 2 Ufer und ein Pfad.

Wortfrequenzlisten: die 100, 1.000, 10.000 und 100.000 häufigsten Wortformen mit ihren Frequenzen aus einem 706-Mio.-Token-Korpus des Deutschen (verwendbar z.B. als Stoppwortlisten; Zeichenkodierung UTF-8).
Das Korpus umfasst:

Enzyklopädie (Wikipedia)	273 Mio. Token
Zeitungen	260 Mio. Token
Parlamentsdebatten	64 Mio. Token
Zeitschriften	30 Mio. Token
Literatur	30 Mio. Token
Fachtext	28 Mio. Token
Untertitel (Filme u. Fernsehserien)	14 Mio. Token
Gesetze u. jurist. Texte	6 Mio. Token
Webseiten	0,5 Mio. Token
Gebrauchstexte	0,3 Mio. Token